R u Ready? HS2025 | Psychologie der Digitalisierung - Einheit 3

Sandra Grinschgl, Aaron Friedli, Lars Schilling

R u Ready? Reproduzierbare Datenaufbereitung und -analyse mit R

HS 2025


LV-Leitung: Dr. Sandra Grinschgl / MSc. Aaron Friedli
Tutor: BSc. Lars Schilling


3. Einheit, 01.10.2025

Achtung

Neue Website Domain

https://r-you-ready.github.io/HS2025/front_page.html

Link wurde in Ilias wurde aktualisiert

Fragen zum Datenanalyseplan:

Fragen zu den Hands On Übungen der ersten beiden Wochen?

  • Was hat euch Schwierigkeiten bereitet?

  • Welche Übungen sollen wir gemeinsam live durchgehen?

  • Gibt es noch Unklarheiten?

  • Musterlösungen ab jetzt online für Block 1!

Heute:

Peer-Pairings

siehe Liste auf Ilias

Forschungsdatenmanagement:

Planung, Organisation, Speicherung, Dokumentation und Archivierung von Daten während des gesamten Forschungsprozesses

Warum Datenmanagement:

  • Datenflut in der Forschung
  • Risiken ohne gutes Management

Ziele von Datenmanagement:

  • Qualitätssicherung

  • Sicherheit/Datenschutz & Ethik

  • Reproduzierbarkeit

  • Nachhaltigkeit und Transparenz

Forschungsdatenmanagement (2)

Standards & Vorgaben:

  • Fair Prinzipien

  • Data Management Plan (SNF)

  • Förderorganisationen & Journals

Praktische Umsetzung:

  • Ordnerstrukturen & Versionierung

  • Dokumentation (README, Codebooks)

  • Offene Dateiformate

https://www.go-fair.org/fair-principles/

Ordnerstrukturen: Psych-DS

  • Standard für die Organisation von Daten, Skripten und weiteren Studiendokumenten

Ein Standard von vielen Möglichen

Psych-DS

Psych-DS für unsere Zwecke:

  • Leicht Abgeändertes Format für unser Seminar

    • Macht es leichter für uns die Abgaben zu kontrollieren
  • Hilft euch eine übersichtliche Ordnerstruktur zu behalten

Psych-DS: Wichtigste Grundsätze

  • Datensätze nur in “data”.

    • Die Rohdatenfiles werden nicht bearbeitet!

    • Der aufbereitete Datensatz -> data/processed

  • Codebook in Ordner “data”

  • Datenanalyseplan in “preregistration”

  • Skripte in “code”

    • Aufbereitungsschritte im Skript “processing”

    • Analyse (mit dem processed datensatz) im Skript “analysis”

  • Keine Redundanzen!

    • Keine redundanten Dateien

    • Keine redundanten Pakete (Nur Pakete laden, die auch verwendet werden).

Psychdsish & Styler

  • 📦 Packages welche helfen sollen Psych-DS Struktur & Stylevorgaben leichter einzuhalten.

  • Für Masterarbeiten: Psychdsish

    Funktionen wie: create_project_skeleton(), check_unused_objects(), validator()

  • 🥅 Ziel: Einhaltung von Standards erleichtern

  • 👗Styler: Funktion um “unschön” formatierten Code leserlicher zu machen. 👉 Hands On!

Wiederholung: Benennung von Variablen ect. in R

  • Namen können aus Buchstaben, Zahlen und Zeichen (_ oder .) bestehen

  • Er muss mit Buchstaben begonnen werden und darf keine Leerzeichen beinhalten

  • Sonderzeichen und Großbuchstaben sollten vermieden werden Keine Namen verwenden, die schon an Funktionen vergeben sind (z.B. mean())

  • Empfehlung für einen leserlichen Code: snake_case

  • Name soll Variable inhaltlich bestmöglich beschreiben

  • Reproduzierbarkeit; „clarity instead of brevity“

  • Benennung am besten in Englisch um internationalen Standards zu folgen

  • Kommentierung von R-Code mit #

    • Text nach # wird ignoriert (für 1 Zeile)

    • Neue Zeilen müssen wieder mit # beginnen

Weitere Style Konventionen:

  • Leerzeichen:

    • Vor und nach mathematischen Operatoren: 2+2 vs 2 + 2

    • Vor und nach Zuweisungen: x<-sum(1+2) vs x <- sum(1 + 2)

    • Aber nicht vor und nach sich öffnenden oder schließenden Klammern oder Anführungszeichen

    • Nach Kommas (aber nicht davor)

    • Weitere Leerzeichen erlaubt wenn die Leserlichkeit erhöht wird (z.B. bei Einrückungen)

  • Verwendung des Pipe Operators (%>% oder |> ) –> Erklärung folgt in kommenden Wochen!

  • Zeilenumbrüche für langen Code verwenden

    this_is_a_very_long_function_name <- (something = "this", requires = "many", arguments = "long words and sentences") #–> bad
    
    this_is_a_very_long_function_name <- (something = "this", 
                                          requires = "many", 
                                          arguments = "long words and sentences") #–> good
  • Styler: Funktion die Code automatisch in dieses Format bringt. 👉 Hands On!

Weitere Style Konventionen:

📖 Lesbarkeit für Menschen und Maschine

🧑‍💻 Für Menschen: Verwende aussagekräftige Dateinamen, die klar beschreiben, was in der Datei enthalten ist.

💻 Für Maschinen: Vermeide Leerzeichen, Sonderzeichen und Symbole in Dateinamen – bleibe bei Buchstaben, Zahlen und Unterstrichen.

🔢 Struktur: Benenne Dateien so, dass sie auch mit der Standard-Sortierung von Ordnern sinnvoll angeordnet werden. Ein bewährter Ansatz ist, mit Zahlen zu beginnen, um eine logische Reihenfolge abzubilden.

Codebook

  • Naive Personen sollen Datensatz nachvollziehen können (Reproduzierbarkeit & Zusatzanalysen)

  • Beinhaltet eine Liste und Beschreibung aller Variablen, z.B.

    • Wie wurde die Variable erhoben (z.B. aus welchem Fragebogen)?

    • Wie wurde die Variable berechnet (z.B. Summenscore, Mittelwert)?

    • Welche Werte kann die Variable annehmen (theoretisches Minimum und Maximum)?

Wichtige Grundsätze für das Codebook

  • Am besten für Rohdaten als auch weiter-verarbeitete Daten
  • Variablennamen in Codebook sollen identisch zu Variablennamen in Datensatz sein

  • Variable muss ausführlich genug beschrieben sein, sodass andere Personen es nachvollziehen können

Codebook: Vorlage

  • Kann in verschiedenen Formaten erstellt werden (Word, Excel, ect.)

  • Excel-Vorlage für das Seminar (siehe ZIP Datei Abschlussprojekt)

  • Beispiel: “Example_Codebook” - Ordner

  • Für weitere Anleitungen siehe “Guideline Codebook”

Siehe auch: Pennington (2023)

Rohdaten für Grinschgl et al. (2020)

  • Bereits vorhanden in euren Ordnern (r_you_ready)

  • Wir mergen diese heute oder in EH4 zu einem vollständigen Datensatz –> dat_full

Codebook

  • Notwendig für „gemergten“ Datensatz „dat_full“

  • Vorlage ist auf Englisch, kann aber auch auf Deutsch ausgefüllt werden (selbes gilt für Datenanalyseplan)

  • Basierend auf Horstmann et al. (2020)

  • Abgabe bis EH6 (22.10) über ILIAS und via Email an Peer-Partner:in

  • Danach Peer Feedback

Beispiel Codebook BFI

Demo Beispiel:

  • Wir fügen nun live einige Variablen in das Codebook ein. Versucht die Schritte nachzuvollziehen und stellt Fragen bei Unklarheiten.

Reproduzierbare Auswertung: Grundsätze

  • Digitale Rohdaten

  • Skript soll den gesamten Weg von den Rohdaten bis hin zu den Ergebnissen dokumentieren

  • Wenn man euren Code auf den Rohdaten laufen lässt, sollte man (fehlerfrei) zu den Ergebnissen kommen

  • Skript ist kommentiert und sinnvoll gegliedert

Hands on!

  • Projekte

  • Daten einlesen

  • Daten speichern

  • Fortsetzung Coding Basics

Heute haben wir…

… Uns mit den Grundlagen von Forschungsdatenmanagement beschäftigt

… Psych-DS als einen Standard kennengelernt

…Style-Empfehlungen für R Code besprochen

…die Gründe für und den Aufbau von einem Codebook besprochen

…Datensätze in R importiert

…diese gemerged und exportiert (Fortsetzung in EH 4)

Hausübungen

  • Codebook erstellen bis Mi 22.10.2025
  • Reminder: Datenanalyseplan bis Mi 08.10.2025

Literatur:

Horstmann, K. T., Arslan, R. C., & Greiff, S. (2020). Generating Codebooks to Ensure the Independent Use of Research Data: Some Guidelines. European Journal of Psychological Assessment, 36(5), 721–729. https://doi.org/10.1027/1015-5759/a000620

Pennington, C. R. (2023). A student’s guide to open science: Using the replication crisis to reform psychology. McGraw Hill.